我们建议使用两层机器学习模型的部署来防止对抗性攻击。第一层确定数据是否被篡改,而第二层解决了域特异性问题。我们探索三组功能和三个数据集变体来训练机器学习模型。我们的结果表明,聚类算法实现了有希望的结果。特别是,我们认为通过将DBSCAN算法应用于图像和白色参考图像之间计算的结构化结构相似性指数测量方法获得了最佳结果。
translated by 谷歌翻译
质量控制是制造业企业进行的至关重要的活动,以确保其产品符合质量标准并避免对品牌声誉的潜在损害。传感器成本下降和连接性使制造业数字化增加。此外,人工智能可实现更高的自动化程度,减少缺陷检查所需的总体成本和时间。这项研究将三种活跃的学习方法(与单一和多个牙齿)与视觉检查进行了比较。我们提出了一种新颖的方法,用于对分类模型的概率校准和两个新的指标,以评估校准的性能而无需地面真相。我们对飞利浦消费者生活方式BV提供的现实数据进行了实验。我们的结果表明,考虑到p = 0.95的阈值,探索的主动学习设置可以将数据标签的工作减少3%至4%,而不会损害总体质量目标。此外,我们表明所提出的指标成功捕获了相关信息,否则仅通过地面真实数据最适合使用的指标可用。因此,所提出的指标可用于估计模型概率校准的质量,而无需进行标签努力以获取地面真相数据。
translated by 谷歌翻译
临床单词嵌入在各种生物-NLP问题中广泛使用,作为最先进的特征矢量表示。尽管它们在单词的语义表示方面取得了很大的成功,但由于数据集(可能带有统计和社会偏见),他们受到了培训,因此它们可能表现出性别刻板印象。这项研究分析了三种医学类别的临床嵌入性别偏见:精神障碍,性传播疾病和人格特征。在此范围内,我们分析了两种不同的预训练的嵌入,即(上下文化的)临床 - bert和(非上下文)Biowordvec。我们表明,这两种嵌入都偏向敏感的性别群体,但Biowordvec在这三个类别中表现出比临床 - 伯特的偏见更高。此外,我们的分析表明,临床嵌入对于某些医学术语和疾病的高度偏见,这与医学文献相抵触。拥有如此不基调的关系可能会在使用临床嵌入的下游应用中造成伤害。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
可以处理各种扬声器和声学条件的模型在语音情感识别(Ser)中至关重要。通常,这些模型往往会在培训期间呈现扬声器或声学条件时显示混合结果。本文调查了交叉组件数据互补和数据增强对Ser模型的影响(从相同的语料库中的测试设置)和不匹配(从不同的语料库测试)条件。介绍了使用六种情绪语音集团的调查,其中包括单一和多个扬声器以及情感风格的变化(作用,引发,自然)和记录条件。观察结果表明,正如预期的那样,在单一语料库上培训的模型在匹配条件下表现最佳,而性能在不匹配的条件下减少10-40%,具体取决于语料库特定功能。在混合语料库上培训的型号在不匹配的上下文中可以更稳定,与匹配条件中的单个语料库模型相比,性能减少的范围为1%至8%。数据增强产生额外的收益高达4%,似乎有利于比匹配的不匹配条件。
translated by 谷歌翻译